مقایسه الگوریتم های برپایه یادگیری ماشین بر دقت تخمین داده های گمشده حاصل از آزمایش های ریزآرایه
Authors
abstract
وجود داده های گمشده در داده های ریزآرایه، سبب کاهش دقت رسم شبکه های تنظیمی ژن، ایجاد اشتباه در خوشه بندی و تقسیم بندی تخصصی ژن ها و سایر تحلیل ها می شود. بنابراین تخمین داده-های گمشده مرحله مهمی در پیش پردازش داده های ریزآرایه، محسوب می شود. عملکرد الگوریتم-های تخمین در مجموعه داده های مختلف و با درصدهای متفاوت گمشدگی، متغیر است. همواره انتخاب مناسب ترین الگوریتم به منظور دستیابی به بیشترین دقت در محاسبات داده های گمشده از اهمیت خاصی برخوردار است. در این مطالعه از سه مجموعه داده آزمایش های ریزآرایه استفاده شد. پس از مشخص کردن ابعاد ماتریس بیانی و نرمال کردن داده ها، درصدهای مختلفی از گمشدگی، بر مجموعه داده های مورد مطالعه اعمال شد. سپس نتایج حاصل با استفاده از 11 الگوریتم بر پایه یادگیری ماشین، به منظور بررسی میزان دقت هر یک از الگوریتم ها در تعیین میزان درصد گمشدگی، مورد مقایسه قرار گرفت. بر اساس نتایج، دقت الگوریتم های مختلف به مجموعه داده به کار رفته، درصد گمشدگی و توزیع گمشدگی داده ها وابسته است. همچنین تعداد نمونه های آزمایشی موجود در مجموعه داده ها نیز می تواند بر دقت الگوریتم های تخمین داده های گمشده موثر باشد. نتایج بیانگر کاهش دقت تمامی الگوریتم ها با افزایش درصد داده های گمشده بود، اما الگوریتم های least square adaptive و local least square دقت بیشتری در مقابل افزایش درصد گمشدگی داده ها نسبت به سایر الگوریتم ها نشان دادند.
similar resources
مقایسه الگوریتمهای برپایه یادگیری ماشین بر دقت تخمین دادههای گمشده حاصل از آزمایشهای ریزآرایه
وجود دادههای گمشده در دادههای ریزآرایه، سبب کاهش دقت رسم شبکههای تنظیمی ژن، ایجاد اشتباه در خوشه بندی و تقسیمبندی تخصصی ژنها و سایر تحلیلها میشود. بنابراین تخمین داده-های گمشده مرحله مهمی در پیش پردازش دادههای ریزآرایه، محسوب میشود. عملکرد الگوریتم-های تخمین در مجموعه دادههای مختلف و با درصدهای متفاوت گمشدگی، متغیر است. همواره انتخاب مناسبترین الگوریتم به منظور دستیابی به بیشترین دقت...
full textمقایسه الگوریتم های متفاوت تخمین داده های گمشده در مجموعه داده های آزمایش های ریزآرایهcdna با شرایط گوناگون
تکنیک ریزآرایه dna، تکنولوژی معمول با عملکرد بالا برای نشان دادن سطوح بیان هزاران ژن بطور همزمان در شرایط مختلف است. این تکنیک، بیولوژی ملکولی را متحول ساخت. برخلاف بیولوژی ملکولی قدیمی، استفاده مفید ریزآرایه dna، نیازمند استفاده توام آمار و محاسبات جهت طراحی آرایه ها، طراحی آزمایشات و تجزیه تحلیل و مدیریت داده ها است. مهمترین کاربرد آن تعیین شباهت ژن های بیان شده در شرایط مختلف سلولی و مرتبط س...
ارائه یک روش جدید برای تخمین مقادیر گمشده در مجموعه داده
اغلب مجموعه داده های مربوط به داده کاوی و ماشین یادگیری دارای داده هایی با مقادیر Missing Values یا داده گمشده می باشند. چگونگی برخورد با داده گمشده و نیز ارائه راهکارهایی مبتنی بر تخمین مقدار مربوط به داده گمشده، منجر به بروز یک مسئله بسیار مهم در زمینه داده کاوی و ماشین یادگیری شده است. در بین الگوریتم های داده کاوی، الگوریتم C4.5، به دلیل کارآیی، استفاده در کاربردهای مختلف داده کاوی و نیز ت...
full textتاثیر داده های گمشده در نمودارهای رشد
سابقه و هدف: استفاده از منحنی رشد قدرتمندترین وسیله پایش رشد کودکان می باشد و از این طریق می توان انحرافات از الگوی رشد طبیعی را بموقع تشخیص داد. ریزش داده ها و مقادیر گمشده از مشکلات معمولی در تجزیه و تحلیل داده های طولی رشد محسوب می شود. لذا اهمیت دارد که با برآورد نمودن مقادیر گمشده، داده ها کامل شده و در مسیری مناسب و صحیح جهت تحلیل قرار داده شوند. مواد و روش ها: این مطالعه طولی طی دو سال ب...
full textMy Resources
Save resource for easier access later
Journal title:
پژوهش های سلولی و ملکولیجلد ۲۸، شماره ۴، صفحات ۶۱۲-۶۲۲
Hosted on Doprax cloud platform doprax.com
copyright © 2015-2023